LLM (Large Language Model),基於大量資料進行預訓練的超大型深度學習模型。基礎轉換器是一組神經網路,這些神經網路由具有自我專注功能的編碼器和解碼器組成。編碼器和解碼器從一系列文字中提取含義,並理解其中的字詞和片語之間的關係。
在LLM出現前,有一個非常重要的技術,Transformer,由 Google 在 2017 由 Illia Polosukhin 與 Aidan Gomez 等等八位工程師提出,現已逐步取代長短期記憶(LSTM)與 RNN 模型成為了 NLP 問題的首選模型。並列化優勢允許其在更大的資料集上進行訓練。這也促成了BERT、GPT等預訓練模型的發展。這些系統使用了維基百科、Common Crawl等大型語料庫進行訓練,並可以針對特定任務進行微調。
對比於傳統用來處理自然語言的技術,如 RNN 與 LSTM 等等,但前者的缺點為對於上下文理解的能力,後者則無法同時處理大量不同的語句,這時 Transformer 的出現解決了以上的問題;但其實 Transformer 也不是完美的存在,當輸入的文字過多時,模型會遺失部份的資訊,也就是大家在使用 ChatGPT 時會遇到當入問題到達一定程度時,模型回覆的:「問題過於冗長,無法處理。」等回覆。
除了大家耳熟能詳的 GPT-3.5、GPT-4o、GPT-4 等等由 OpenAI 訓練出來的語言模型,還有來自法國 Mistral 團隊的 Mistral-7B、Google 的 Gemma-7B等等小模型,其中 7B(biliion) 是指模型中有 70 億(左右)個 參數,也可以說是神經元 對,就是那個在用 TensorFlow 使用.summary()會出現的那個
,本系列就是要教大家,如何不使用 OpenAI 的 GPT 來部屬自己的 RAG 問答系統。